#Университет Тинхуа26.05.2025
Microsoft и Тинхуа представляют модели вознаграждения с рассуждениями для динамического масштабирования вычислений и улучшения оценки LLM
Исследователи Microsoft и Тинхуа предложили модели вознаграждения с рассуждениями, которые адаптивно распределяют вычислительные ресурсы во время оценки, значительно улучшая качество суждений и выравнивания больших языковых моделей.